Du traitement récurrent à l'attention : surmonter les limites du modélisation séquentielle
La modélisation séquentielle classique s'appuyait fortement sur les réseaux de neurones récurrents (RNN) et leurs variantes à mécanismes de mise en œuvre (LSTM, GRU). Bien qu'innovantes pour les premières tâches de séquence à séquence, ces architectures souffrent de problèmes fondamentaux d'évolutivité lorsqu'il s'agit de traiter des dépendances complexes. L'introduction des mécanismes d'attention a constitué la percée conceptuelle essentielle permettant de dépasser ces limites et de rendre possible la création de systèmes NLP modernes et très efficaces.
1. Le problème des dépendances à longue portée
Dans les RNN, le chemin de dépendance entre le token $t_i$ et le token $t_j$ doit traverser tous les étapes intermédiaires de manière séquentielle. Cela oblige le signal de gradient pendant la rétropropagation à multiplier répétitivement les matrices de poids, entraînant une décroissance rapide (décroissance du gradient) du signal, rendant presque impossible la propagation d'informations utiles ou de signaux d'erreur sur de grandes distances dans la séquence. La complexité du chemin est de $O(N)$.
2. Le goulot d'étranglement du contexte de taille fixe
Les architectures standard encodeur-décodateur antérieures à l'attention requéraient que toute la signification de la séquence source, quelle que soit sa longueur, soit compressée en un seul vecteur de dimension fixe (le vecteur de contexte, $C$). Ce goulot d'étranglement limite sévèrement la capacité du modèle à conserver toutes les informations nécessaires, particulièrement pour les entrées longues ou complexes, entraînant une perte critique d'information au cours de la phase de décodage.
Contrast the dependency path length required by:
- Traditional Recurrence (e.g., LSTM)
- Attention Mechanism (Query-Key comparison)
Attention creates a direct, non-sequential connection between any output token $Y_j$ and any input token $X_i$ by calculating a weight based on their vector similarity ($Q_j K_i^T$). The dependency path length is effectively $O(1)$ (a direct look-up), removing the constraint of linear path traversal imposed by recurrence ($O(N)$).